其他
[授权转载] 数据迷思1:新冠只对老年人有害吗?(原作者:曹天元)
特别声明:
曹老师的“数据迷思”系列专栏文章已经写到了第四集,各位方便的话,不妨移步知乎,直接到曹老师的专栏捧场,传送门:
zhihu.com/column/c_1509219556766216193
之前咱自作主张,改换了一下顺序,首先转载了曹老师这个系列的第三集,请见:《数据迷思3:“超额死亡”背后的真相》
由于跨平台转载的原因,格式可能有微调,请见谅。
第一部分:
然而遗憾的是,由于大部分人对概率和统计缺乏深入理解,更有很多人连相关的基本概念也是模糊不清,这就导致他们对引用的“数据”缺乏基本的逻辑分析能力,由此得出的结论当然也是南辕北辙的。
时至今日,哪怕在学界,对于概率统计的误解误用,情况也已经变得愈加严重。滥用p值,胡乱应用各种统计检验,倒果为因,把相关性解释为因果性……越来越多的例子正在被不断报道出来。也许有史以来,从来没有哪个时代,被数据“欺骗”的人会像今天这么多。正如马克吐温引用的那句著名的话:世界上有三大谎言:谎言、该死的谎言,以及统计数字。
在这里,我并不打算大量引用复杂的统计术语,更不打算长篇大论地去列公式、做计算。因为在很多话题上面,其实只要厘清一些基本的概念,再运用一些简单的逻辑思维,就可以分辨绝大部分的“数据陷阱”,所需的数学水平基本不会超过中学。在这个系列里,就让我们用尽可能简单的语言来聊一聊有关数据、概率和统计方面的话题。
第二部分:
乍看上去,好像很有道理,但是停,让我们仔细想一想。如果你的思维比较缜密,你会很快意识到这里有些不对劲。虽然最后的结论我们不知道到底对不对,但很明显:这个论证方式是有问题的。哪怕是在自然的情况下,在每天正常死亡的人当中,难道本来不就应该是老年人居多吗?如果我们把新冠换成“喝水”,那么,在“喝过水后死去的人”当中,肯定也是老年人居多,年轻人很少。所以是不是可以说:喝水对老年人危害严重,对年轻人则无关痛痒?这个结论肯定是荒谬的。
当然了,大家凭日常经验就知道,喝水是一件无害的事情,所以我们可以直觉式地排斥以上结论。但如果是某种陌生的事物呢?或许判断就没有那么容易了。
第三部分:
让我们想象这样的场景:有一天,突然一个恶魔来到了地球上。这个恶魔对所有人都施加了某种邪术,然后突然间,大批人纷纷死去。悲剧过后,我们检查死者的年龄分布,发现老年人占其中的绝大多数。而且年龄越高的人,死亡比例就越高。比方说,90岁以上的老人有99%都死了,而80-89岁的老人有90%死了,70-79岁的老人则死了75%……当然,年轻人也有死的,但是绝对数量很少,而且占同龄总人数的比例也很低。那么,我们可以从中得出什么样的结论呢?是不是这个恶魔特别讨厌老年人,所以必要致他们于死地而后快?然而,这个恶魔很快又回来了,他惊讶地看着我们,说:没有啊,其实我对所有人都是“一视同仁”的啊。我的法术,其作用不过是让每个人都减少了十年阳寿而已。实际上,所有人的遭遇都是平等的,并没有特殊针对任何群体。
所以,回到新冠的问题上,如果我们想要证明新冠确实对老年人危害更大,至少需要考虑以下几种情况:
第一,不能单纯地只说“老年人的绝对死亡人数更多”,而需要考察他们占总死亡人数的比例。这个比例相比于“自然”状态下,是大幅升高了,还是变化不大?
第二,即使老年人占死亡人数的比例提升了,考虑到他们的“死亡风险”本来就更高。那么,哪怕所有人的风险都提升同样的比例,老年人的“新增死亡”也将会因此变得更多。如果是这种情况,那这个临时的数字其实意义也不大,因为年轻人其实承担了同样的额外风险,只不过这个风险“目前”还没有显现出来而已。
第四部分:
现在,让我们先来考察在没有疫苗的情况下,原始新冠毒株以及后来的Delta变种对“自然状态”下人群的影响。纵观全球,在疫情问题方面,只有美国CDC发布了最详尽、最丰富的相关数据,因此是最理想的考察对象。首先,我们统计疫情前五年,也就是2015-2019年美国的人口数据,并且拟合出2020和2021年“本来应有”的分年龄死亡比例。事实上,因为CDC刚刚发布了最新的2019年美国人口生命表,两相参照之下,这个数字可以拟合得相当准确。接下来,我们再对照2020和2021年美国实际公布的新冠死亡人数,同样按照年龄层给出相应的比例。最后,考虑到美国“上报”的新冠数字未必全面准确,可能有没查到的,或者被隐藏的。幸好,2020-2021年的全因死亡人数统计目前也已经出炉,所以我们可以获取到这两年准确的“美国总人口实际死亡数字”。先不管其中究竟有多少是“因为新冠导致”,我们把这个实际数字也按照年龄分层,得出相应的比例。将三个数字摆在一起对比,结果如下(拍老师的画外音:可能需要点开大图):
更夸张的是2021年,可能是因为极端脆弱的高龄老人在上一年基本都已去世,2021年,85岁以上老人仅占美国实际死亡人口的27.18%。在报告“新冠死亡”的46万人中,更是仅占20.6%。而我们“预期”当年他们本来应该占美国“自然死亡人数”的30.57%。可以说,在这一年,美国的超高龄老人相对其他年龄层,反而算是“死得少”的。
以上是按照“占比”而言,接下来,我们再按照每年的绝对死亡率,求一个“实际”的风险出来。比方说,如果按照2019年的“自然死亡率”,某年龄段人群“应该”在2020年死亡50万,而实际上死亡了55万,那么我们就容易得出结论:该年龄段在2020年“超额”死亡了10%。注意,这个数字只考虑全部人口,跟“报告”了多少新冠死亡无关,换句话说,不管这些人是“因为”什么而死,总之在这一年全部加起来多死了10%。
同样,我们把2020-2021年美国各年龄段的预期死亡人数,实际死亡人数,还有超额死亡率都画出来,如下图(拍老师的画外音:可能需要点开大图):
相比之下,对于85岁以上的超高龄人群来说,2020年我们预计他们死亡874281人,实际死亡1012805人,增加了15.8%。而2021年,我们预计将死亡888266人,实际死亡却只有939942人,仅增加5.82%。虽然“绝对数字”看上去很多,但相比之下,高龄人群风险提升的“比例”却反而更小。
事实上,从上图中我们可以发现,“超额死亡”的比例大概在35-65岁之间是最高的,而到了特别高龄的阶段,反而会有所降低。从这个角度上讲,在大家都没有接种疫苗的情况下,原始新冠毒株实际上对中年人和“次老”的老年人才是杀伤力最大的,而“极老”的老年人虽然看起来死得很多,但实际上,风险提升的比例反而没有前者那么高。
结尾部分:
以上说的是还没有疫苗的时候(美国虽然从2020年底就开始接种疫苗 ,但考虑到全程接种三针需要大半年多的周期,加上很多美国人不肯打疫苗,他们在2021年的保护也可以说是很不充分的)。有了疫苗之后,加上新的Omicron变种的出现,情况变得稍微有点复杂起来。以下,我们来考察一下香港从今年1月1号起至今(5月13号)的数字。按港府给出的官方人口数,香港在2021年底共有7403100人,自今年疫情爆发以来,总共报告死亡9142人(截止5月11日),如果按年龄分层,画出对应的比例,我们可以得到下图(拍老师的画外音:可能需要点开大图):
哎,还真不一定,因为这里出现了一个新的变量,就是在不同的年龄层之间,存在着不同的疫苗接种率。事实上,如果把该变量考虑进去,我们会发现:这里出现的是一个极其经典的统计学谬误,也就是所谓的“辛普森悖论”。大家不妨先自行思考一下,我们在下一篇里再来继续详谈。
以上,转帖完毕,感谢曹老师!
并且欢迎各位直接到曹老师的知乎专栏捧场,传送门:
zhihu.com/column/c_1509219556766216193
曹老师本专栏的第二集以香港为例讲辛普森悖论,一样很精彩,敬请期待!